查看原文
其他

学术活动|“浮现中的数字学术:社交媒体与学术成果传播”专题研讨会纪要(五)

第五期

一一2018年11月1日,我们举办了“浮现中的数字学术:社交媒体与学术成果传播”专题研讨会,来自学界和业界的六位嘉宾与我们分享了他们的研究成果和心得。我们对现场录音进行了整理,将分6期在公众号上连续刊发(按照发言顺序),包括文字和发言人的PPT内容。

        敬请关注,欢迎转发。

发言人:方志超荷兰莱顿大学科学技术研究中心(CWTS)博士生

报告题目:微观时间尺度下Altmetrics数据积累模式的即时性与持续性研究

录音整理:祁凡

我现在的主要研究方向是Altmetrics数据的分布和积累模式分析,以及Altmetrics数据在热点主题探测等方面的应用。Altmetrics数据的一个重要的特征,就是它的即时性/速度,但宏观时间尺度不能充分描述Altmetrics数据的即时性,因此本研究强调在“微观时间尺度下”分析各类Altmetrics数据的积累模式与速度。本研究的主要研究内容分为以下三部分。第一部分为Crossref数据和 Altmetric.com数据的分析与使用。


Crossref数据和 Altmetric.com数据的分析与使用

第一个数据源介绍,关于Crossref时间数据的应用潜力

 

Rodrigo和Stefanie在2015年的ISSI会议发表了一篇关于“论文是什么时候被真正发表的呢?”的论文。他们在这篇论文里比较了五种可能可以代表发表日期的数据,包括:出版商上的在线发表日期、 Altmetric.com提供的发表日期和Altmetric First Seen Date、First Tweet日期以及Web of Science的索引日期。他们得出结论:这些日期数据都不能十分有效地充当论文发表时间的代理。


所以,今天上午余老师提到他发现:有些Twitter出现在论文发表日期之前,这理论上是可能,因为有预印本等提前发表的形式存在,但还有一种可能是日期错误。所以,在这种情况下,我们思考可不可以找出一种更精确、更详细、更全面,可适用于大规模研究的发表日期的代理,我们选择了Crossref数据。

 

Crossref正式成立2000年1月,并逐渐开始为其成员提供 DOI注册服务。整合DOI的元数据数据库是Crossref系统的核心。Crossref数据量巨大,2018年8月包括了89360466条DOI记录。且Crossref文献类型丰富,包括论文、图书、会议论文等。

 

本研究遵循以发行日期数据为参照(2002-07-25之后)的使用策略,使用创建日期(即DOI注册日期)作为论文正式发表日期的代理具体原因如下。

 

Crossref为每一个DOI提供一系列的日期数据,最有潜力代理的有四类数据:创建日期(即DOI注册日期)、发行日期、印刷出版日期、在线出版日期。

 

(1)四类数据覆盖率情况为:创建和发行日期覆盖了所有DOI,在线出版日期覆盖率较低。具体为:近9000万条数据全部都有创建日期和发行日期,但印刷出版日期覆盖率为90%、在线出版日期覆盖率为32%。所以在这项研究中,创建与发行日期可能可以作为发表日期的一个代理。


(2)在分析2000-2018年四类数据的时间分布之后,我们发现:DOI的创建日期是从2002年7月25日开始,发行日期、印刷出版日期以及在线出版日期是从1900年开始。从时间分布来看,大量的论文集中在创建数据的7月25、26、27,其后分布比较随机。但发行日期、印刷出版日期以及在线出版日期的分布有着规律的高峰与矮峰,高峰是每年的1月1号,矮峰为每个月的1号,这种发表日期的集中分布和当下数字出版的实际并不符合。因此,创建数据更能代表数字出版的趋势。此外,创建日期是2002年7月25、26、27的DOI,其发行日期99.95%在7月25号之前,说明年代久远的论文是Crossref后来添加的DOI号,这种情况下创建日期数据不适用于充当发表日期的代表。

 

第二个数据源介绍,关于Altmetric.com数据源的分析

 

(1)本研究所分析的12种Altmetric.com数据来源,大部分于2011年开始受到Altmetric.com的追踪。


(2)关于Altmetric.com数据的时间分布与覆盖率。数据量最大的数据源是Twitter,几乎80%有Altmetrics数据记录的样本论文有Twitter数据;第二是Facebook,20%的论文有Facebook数据。2013年后,所有作为研究对象的12种数据源都有数据覆盖。


(3)关于Altmetric.com数据的学科分布。基于CWTS 学科分类体系(包括社会科学和人文科学、生物医学和健康科学、数学和计算机科学、物理学和工程学、生命和地质科学五类),在Twitter上,社会科学和人文科学、生物医学和健康科学被Twitter广泛讨论;相较而言,数学和计算机科学、物理学和工程学很少得到Twitter讨论。这一结果与Facebook以及News的数据分析结果相似。而Mendeley的数据学科分布相当广泛,几乎所有学科都有被阅读。







各类Altmetric.com数据的积累模式与即时性分析

第二部分为各类Altmetric.com数据的积累模式与即时性分析。包括:各类Altmetric.com数据来源的积累模式是怎样的?如何评价各类数据来源传播新发表论文的速度?各类数据来源的速度是否存在文献类型和学科的差异?

 

关于Altmetric.com 数据来源的即时性问题。数据收集与处理的步骤为:首先,在Web of Science中选取发表时间(基于Crossref创建日期数据)为2013年1月1日至2016年10月1日的1982226篇论文作为样本,这些论文的DOI号同时被Web of Science(获取文献计量学信息)和Crossref(获取发表日期)收录,且在2017年10月1日前至少有一条Altmetrics记录(在12个数据源上)。最后,数据清洗中排除有预印本(preprint)的文献(0.89%)和Altmetric first seen date比发表日期更早的文献(8.28%)。根据数据分析以下问题。

 

(1)样本论文在各类数据来源上获得第一条Altmetrics提及的时间分布状况。分别被Reddit和Twitter提及的论文中,,有超过20%的论文在发表的当天已经获得了第一条提及。News,Facebook紧随其后等。相较而言,Q&A、维基百科数据积累速度十分平缓。


(2)Altmetrics数据积累模式。研究发现:Reddit、Twitter、News、Facebook、Google+数据积累速度很快,在论文发表的30天之内就已积累了50%的数据量;相较而言,Q&A、维基百科、同行评议平台、政策文件数据积累速度较慢,经过一年还未积累到50%的数据量。


(3)提出Altmetric.com 数据来源的半生命期概念,从静态的角度评价数据源的积累速度。半生命期概念即为在一定时间窗口内,针对一系列科研成果,各类Altmetrics数据来源积累到过半总Altmetrics记录数量所需的天数。如果将时间窗口限定在论文发表后的一年之内,可将Reddit(7天)、Twitter(10天)、News(11天)、Google+(13天)、Facebook(18天)归类于Altmetric.com的快数据源。


(4)速度指数(Velocity Index),在灵活的时间尺度内了解数据源的积累速度,在不同时间段内Altmetrics数据速度不同。速度指数指科研成果发表后,在一定时期内(1天、1个月、1年等)所积累的Altmetrics记录相较于该数据来源总Altmetrics记录的比例。



一方面,面向四种文献类型的速度指数变化情况为:社论速度指数很高,综述速度指数较低,社论和通讯的速度指数明显高于论文。


另一方面,面向不同学科领域的速度指数变化情况为:总体上,多学科期刊和自然科学领域有着较高的速度指数。具体地,在工程领域,语言学、信息学和传播学领域Twitter是领头羊。在生物医学、多学科期刊、自然科学、社会科学、行为科学中Reddit是最快的。News在生命医学、多学科期刊、自然科学领域传播较快,而在工程、人文社科领域相对较慢。


论文在Altmetrics数据来源上传播的持续性分析

第三部分为论文在Altmetrics数据来源上传播的持续性分析。衡量持续性的h指数(以Twitter为例),即如果一篇论文在h天中被推特转发了至少h次,则h表示了该论文受到推特关注的持续性。根据Altmetrics数据的即时性与持续性构建二维坐标系,衡量着科学出版物在不同Altmetrics数据来源平台上的受关注持续时间,或昙花一现,或旷日长久。


结论与局限

结论包括:

(1)Crossref相关日期数据在进行时间分析时,具有一定的应用潜力和价值,尤其是对于Altmetrics数据而言。

(2)各类Altmetrics数据呈现出不同的积累模式,即时性并非Altmetrics数据来源的共有特征,“快数据来源”(e.g. Reddit, Twitter, News)和“慢数据来源”(e.g. Policy documents, Q&A, Wikipedia)之间存在显著差异。

(3)不同Altmetrics数据来源对于新发表出版物的传播速度随着出版物的文献类型和学科领域而变化。

 

本研究的局限性有:

(1)Crossref的创建日期数据并非是绝对准确的发表日期,可能与论文真正的发表日期相比存在细微的差别。

(2)Altmetric.com中有些数据来源缺少详细的发布日期数据,如Mendeley、CiteULike,这些数据来源的积累速度难以在天的层面衡量。

(3)基于h指数评价持续性尽管同时考虑了Altmetrics数据量与持续天数,但缺乏灵敏度,大部分论文不能得到有效区分。



PPT分享请戳右方二维码

(发言人已授权)


温馨提示


识别二维码后,请在手机浏览器中打开并下载

① IOS系统,请在点击界面右上方 “…”图标,选择在浏览器中打开下载

② Android系统,会出现自动提示,在浏览器中打开下载


*本文版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。

制版编辑 | 朱静


学术活动 | 第七期 林海青•“关联数据与图书馆:案例分析”讲座纪要

学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(四)

学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(三)

学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(二)

学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(一)

学术活动 | 第五期 第九届全国情报学博士生学术论坛征文通知

学术活动 | 第四期 2018年第十二届全国图书馆学博士生学术论坛会议通知

学术活动 | 第三期 “浮现中的数字学术:社交媒体与学术成果传播”专题研讨会会议通知

学术活动 | 第二期 林墨·科学家与科学数据研究趋势——2018科学计量与科技评价天府论坛学术沙龙纪要

学术活动 | 第一期 MIS Quarterly副主编、丹麦哥本哈根商学院陈致玮教授来我院作专题报告


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存